The outbreak of the SARS-CoV-2 pandemic has put healthcare systems worldwide to their limits, resulting in increased waiting time for diagnosis and required medical assistance. With chest radiographs (CXR) being one of the most common COVID-19 diagnosis methods, many artificial intelligence tools for image-based COVID-19 detection have been developed, often trained on a small number of images from COVID-19-positive patients. Thus, the need for high-quality and well-annotated CXR image databases increased. This paper introduces POLCOVID dataset, containing chest X-ray (CXR) images of patients with COVID-19 or other-type pneumonia, and healthy individuals gathered from 15 Polish hospitals. The original radiographs are accompanied by the preprocessed images limited to the lung area and the corresponding lung masks obtained with the segmentation model. Moreover, the manually created lung masks are provided for a part of POLCOVID dataset and the other four publicly available CXR image collections. POLCOVID dataset can help in pneumonia or COVID-19 diagnosis, while the set of matched images and lung masks may serve for the development of lung segmentation solutions.
translated by 谷歌翻译
分类问题的复杂性评估是监督学习领域许多主题的重要因素。它在元学习中起着重要的作用 - 成为确定元属性或多准则优化的基础 - 允许评估训练集进行重新采样而无需重建识别模型。目前可用于学术界可用的工具,该工具将可以计算问题复杂性度量,仅作为C ++和R语言的库可用。本文介绍了软件模块,该模块允许估算Python语言的22种复杂性度量 - 与Scikit-Learn编程界面兼容 - 允许在机器学习社区最受欢迎的编程环境中使用它们实施研究。
translated by 谷歌翻译
表示学习的目的之一是恢复生成数据的原始潜在代码,这是需要其他信息或归纳偏见的任务。最近提出的一种称为独立机制分析(IMA)的方法假定每个潜在来源应独立影响观察到的混合物,补充标准的非线性独立组件分析,并从独立的因果机制原理中汲取灵感。尽管在理论和实验中表明IMA有助于恢复真正的潜在潜在,但该方法的性能仅在确切满足建模假设时才得以表征。在这里,我们测试了该方法对违反基本假设的鲁棒性。我们发现,基于IMA的正规化恢复真实来源的好处扩展到与IMA原理不同程度的混合功能,而标准的正则化器不提供相同的优点。此外,我们表明,未注册的最大似然恢复了混合功能,这些功能系统地偏离了IMA原理,并提供了阐明基于IMA的正则化的好处的论点。
translated by 谷歌翻译
本文着重于设计一种噪声端到端音频语音识别(AVSR)系统。为此,我们提出了视觉上下文驱动的音频功能增强模块(V-Cafe),以在视听通讯的帮助下增强输入噪声音频语音。所提出的V-Cafe旨在捕获唇部运动的过渡,即视觉上下文,并通过考虑获得的视觉上下文来产生降噪面膜。通过与上下文相关的建模,可以完善掩模生成Viseme-to-phoneme映射中的歧义。嘈杂的表示用降噪面膜掩盖,从而增强了音频功能。增强的音频功能与视觉特征融合在一起,并将其带入由构象异构体和变压器组成的编码器模型,以进行语音识别。我们显示了带有V-fafe的端到端AVSR,可以进一步改善AVSR的噪声。使用两个最大的视听数据集LRS2和LRS3评估了所提出方法的有效性。
translated by 谷歌翻译
表问题回答(表QA)是指从表中提供精确的答案来回答用户的问题。近年来,在表质量检查方面有很多作品,但是对该研究主题缺乏全面的调查。因此,我们旨在提供表QA中可用数据集和代表性方法的概述。我们根据其技术将现有的表质量质量质量检查分为五个类别,其中包括基于语义的,生成,提取,基于匹配的基于匹配的方法和基于检索的方法。此外,由于表质量质量质量检查仍然是现有方法的一项艰巨的任务,因此我们还识别和概述了一些关键挑战,并讨论了表质量质量检查的潜在未来方向。
translated by 谷歌翻译
剪辑网络衡量自然文本和图像之间的相似性;在这项工作中,我们研究了其图像编码器中单词图像和自然图像的表示的纠缠。首先,我们发现图像编码器具有将单词图像与这些单词描述的场景的自然图像匹配的能力。这与先前的研究一致,该研究表明,单词的含义和拼写可能会纠缠在网络内。另一方面,我们还发现剪辑具有强大的匹配无意义单词的能力,这表明字母的处理与其含义的处理分开。为了明确确定剪辑的拼写能力是否可分离,我们设计了一个步骤来识别代表子空间,这些子空间有选择地隔离或消除拼写功能。我们根据一系列检索任务进行基准测试方法,并通过测量夹子引导的生成图像中的文本外观进行测试。我们发现我们的方法能够与自然图像的视觉处理清晰地分开剪辑的拼写功能。
translated by 谷歌翻译
这项工作的目的是从无声说话的脸部视频中重建演讲。最近的研究表明,来自无声说话面部视频的综合语音表现令人印象深刻。但是,他们尚未明确考虑不同扬声器的不同身份特征,这些特征在视频到语音综合中构成了挑战,这对于不可见的扬声器设置变得更加至关重要。与以前的方法不同,我们的方法是将语音内容和外观风格与给定的无声说话的面部视频分开。通过指导模型独立专注于建模这两个表示形式,即使给出了看不见主题的输入视频,我们也可以从模型中获得高清晰度的语音。为此,我们介绍了语音视觉选择模块,该模块将语音内容和扬声器身份与输入视频的视觉特征分开。分散的表示形式通过基于VISAGE风格的合成器共同纳入综合语音,该合成器通过在维护语音内容的同时涂上VISAGE风格来产生语音。因此,提议的框架带来了合成语音包含正确内容的优势,即使给出了看不见的主题的无声说话的脸部视频。我们验证了在网格,TCD-TIMIT志愿者和LRW数据集上提出的框架的有效性。可以在补充材料中听到综合语音。
translated by 谷歌翻译
基于文本的对抗攻击变得越来越普遍,通用互联网用户可以访问。随着这些攻击的繁殖,解决模型鲁棒性中差距的需求即将变得迫在眉睫。在对抗数据上进行重新培训可能会提高性能,但这些模型在该模型中仍有一类其他角色级攻击。此外,重新培训模型的过程是时间和资源密集型,创造了对轻巧,可重复使用的防御的需求。在这项工作中,我们提出了对抗性文本标准器,这是一种新颖的方法,可恢复具有低计算开销的攻击内容上的基线性能。我们评估了标准级化合物在容易发生攻击的两个问题领域的功效,即仇恨言论和自然语言推断。我们发现,文本归一化提供了针对角色级攻击的任务不足的防御,该攻击可以对对抗性再培训解决方案进行补充,这更适合语义改变。
translated by 谷歌翻译
在工作场所的第z参与调查中执行相关和聚类分析(K-Meansian混合模型)。聚类表明了描述员工参与的各种因素之间的关系。最明显的因素是关于工作职责和具有挑战性的工作的明确陈述。这些因素在实践中至关重要。本文的结果可用于准备旨在旨在发电Z员工的更好的动机系统。
translated by 谷歌翻译
使用福利值的添加特征说明已经成为为每个特征的相对重要性提供给机器学习模型的个人预测的透明度。虽然福利值在合作博弈论中提供了独特的添加剂特征归因,但即使是单机学习模型也可以生成的福利值远非独特,具有影响所产生的血统的理论和实施决策。在这里,我们考虑福利值的应用解释决策树集合,并提出了一种可以应用于随机林和提升决策树的基于福芙值的特征归属的新方法。这种新方法提供了准确地反映各个实例的模型预测算法的细节的属性,同时使用最广泛使用的当前方法之一进行计算竞争。我们解释了标准和新颖方法之间的理论差异,并使用合成和实数据进行比较它们的绩效。
translated by 谷歌翻译